Уважаемые пользователи, представляем вашему вниманию новый сервис: семантический анализ текста.
Анализатор показывает следующие показатели текста:
- количество символов
- количество символов без пробелов
- количество слов
- количество уникальных слов
- количество значимых слов
- количество стоп-слов
- вода
- количество грамматических ошибок
- классическая тошнота документа
- академическая тошнота документа
Анализатор текста показывает семантическое ядро текста с количеством и частотой запросов, список слов и стоп-слов, а также грамматические ошибки.
Классическая тошнота - квадратный корень из количества повторений самого тошнотного слова. Если количество меньше 7-ми, то корень из 7-ми. Академическая тошнота - тошнота документа с учетом тошнотности всех тошнотных фраз.
Академическая тошнота - неким образом показывает натуральность документа. Если в документе много различных повторяющихся слов, то академическая тошнота большая.
По некоторым данным после 7% может и того, вывернуть наизнанку. Показатель классической тошноты сильно меняется от количества одного и того же ключевика. Чем чаще он употребляется, тем больше тошнота. И наши речевые привычки на неё влияют: "возможно", "наверное" и т.д. употребленные несколько раз, повышают тошноту.
«Тошнота» это «SEO-шный» термин оценки степени "заспамленности" текста самым частым словом. Как правило - это наиболее часто повторяющееся ключевое слово. Поисковая система на нём – «зацикливается» и по остальным ключевым словам почти, что не работает- «…тошнит её сердешшшную…». Дело «Автора» выполнить все указания заказчика WM-ма, а дело WM-ма указать в задании то количество обязательных ключевых слов так, чтобы поисковиков не тошнило.
Так, что с точки зрения «Автора» этот параметр полностью на «совести» заказчика WM-ма и, если он более 7-ми, значит надо либо менять параметры заказа (указывать другое количество ключевых слов), либо оставлять как есть ибо, как говорят «SEO- шники»: «…большая тошнота сопровождается высокой контрастностью ключевого слова. при прочих равных, страница с большей тошнотой и с большей контрастностью должна быть более релевантной, чем с меньшей тошнотой и меньшей контрастностью.» (цитата с "форума настоящих SEO - шников").
спасибо большое, дорогим Админам!!! Очень удобный сервис! подсчет слов-отличненько работает. единственный минус-все падежи одного слова считает отдельно. неплохо было бы и вместе подсчитать(иногда ключевики разрешается склонять). присоединюсь к вопросу в посте 11.
Я уже скоро совсем разленюсь. Орфографию проверяют, тошноту считают... Еще бы пунктуацию конролировали - и все, можно по клаве бить, не сильно заботясь о правилах, есть программа - она поправит. :) Спасибо, действительно очень интересные и полезные нововведения пошли на Адвего. Взрослеем, однако! :)
Здорово! Спасибо большое! Но, интересно, что значит фраза/слово: "иза", "длить", "материть", "антитело", - таких слов у меня в статье точно нет, но во вкладке семантическое ядро они присутствуют.
ошибки морфологии :) к примеру опечатка слова "материал" == "материл", которая распознается как "материть", т.е. типа "он ее материл". В оригинальном сервисе с которого этот был слизан тоже есть эта ошибка :)
Под оригинальным сервисом я подразумеваю тот сервис с которого была взята идея, и структура. Глупо утверждать что мол идея разрешения омонимии "пальцем в небо" была вынута обратным инжинерингом и т.п., но также само глупо говорить, что сервис не писался глядя на оригинал, с учетом ошибок и наоброт удачных идей оригинала. Каждый кто видел оригинал видит в усовершенствованном клоне именно то чем он является. :)
)))))))))))))))))))) Спасибо, посмешили)))) Ну а если по сути, то факты остаются фактами, и от того знаете ли вы с кого вы копировали свой сервис или нет ничего не меняется :) Если вам приятнее считать, что за основу брались сотни англо/франко/и прочее-язычных сайтов с различной функциональностью смутно похожей на вашу, а не русскоязычный сервис который где-то на 80% схож с Вашим вариантом, то я в принципе не против. Мало того, могу сказать, что не все "болячки" перешли вам "по наследству", и в среднем Ваш вариант ЛУЧШЕ оригинала. Лично я не вижу ничего плохого в том, что Вы взяли чужие идеи, немного доработали их и воспроизвели у себя. :)
Я знаю ваш сервис, я его видел, я его тестировал. Но мы никак не ориентировались на него, когда делали свой. Единственно сходство, которое я вижу - это слово "тошнота", но ваш сервис к этому слову не имеет отношения.
Я ни вижу ни в вашем ни в нашем сервисе никаких новых идей, все это реализовано в том или ином виде сотни раз. И в онлайне и в оффлайне. (В оффлайне - тысячи раз)
Если вы хотите считать, что за основу взят ваш сервис - можете считать так )
тошнота? :) А почему не водность тогда уже? :) Ладно, завязываем с этим спором. Думаю пользователям он точно не нужен, а мы с Вами все равно останемся при своем мнении. В любом случае сервис хорош, и желаю Вам его развивать и поддерживать.
Не знаю что значит очень умное слово "Лемматизатор", которое наверное сказано с целью ввести в заблуждение столь же неосведомленных в терминологии, как и я... Но очевидно, что Mendel имел в виду тот сервис, откуда вы *программисты и администрация Адвего* взяли идеи проверки семантического анализа текста.
Mendel, что-то ничего не поняла, опечатки в системе или где? :). Статья была про герпес и беременность)))) за "ошибки" были приняты слова "Зовиракс", "рецидивирующим", откуда взялись "длить", "материть", "антитело", "иза" - я так и не поняла, можно предположить: "длить" от "продлить", "материть" - может быть, это "от матери к ребенку"?? не знаю
Есть такое понятие как морфологическая омонимия. Это когда глядя на одно слово, вырваное из контекста, нельзя сказать что это за слово. К примеру "потом". ПОТОМ он сказал, что она его предала... А может быть: В такой жаре он истекал ПОТОМ... также и с матери: Он материт тебя? МАТЕРИ и ты его! или: от МАТЕРИ к ребенку.... Анализировать контекст это значит действительно реализовывать семантику, а не использовать ее в названии :) Я не стал этого делать. Адвего тоже не стали... Разрешать морфологическую омонимию статистическими методами (словарь частых слов) или тот же триграм (или как его АОТ0шная технология) это тоже не особо целесообразно. Проще просто когда несколько вариантов взять первый попавшийся, как правило он правильный...
Сервис очень полезный, большое спасибо! Единственная просьба, если возможно - разместить русский язык в таблице языков первым, а не в алфавитном порядке (или добавить его второй раз в начало) и второе - сделать так, чтобы при переходе от проверки орфографии к семантическому анализу текста уже размещенный текст не исчезал из формы. Это заметно облегчило бы проверку, особенно когда неоднократно редактируешь текст для правильного количества ключей или иного показателя. А так - все очень замечательно, еще раз спасибо!
Бедный, бедный Пушкин. Его стихотворение "Бесы" получило следующую оценку программы:
Вода 43.1 % Количество грамматических ошибок 3 Классическая тошнота документа 2.65 Академическая тошнота документа 10.2 %
А вот Толстой со своей "Войной и миром" (разговор Пьера и Андрея в Лысых горах о смысле жизни): Вода 21.1 % Количество грамматических ошибок 7 Классическая тошнота документа 5.00 Академическая тошнота документа 9.8 %
Таким образом, Пушкин тошнее академически, а Толстой - классически.:)) И все, все пишут с грамматическими ошибками (с точки зрения программы)! :)))))))))))
у меня есть еще вопрос, а не планируется ли стоп-слова (сорняки), как, например, вот, который, наверное и т.д. каким-нибудь цветом выделять или подчеркивать? Это я спрашиваю из любви к искусству :)
Пардоньте, это Вы все союзы и предлоги сорняками называете?! А сорняки, как я понимаю, нужно беспощадно искоренять? Иначе зачем же их "цветом выделять или подчеркивать". По этой логике от фразы "Вот Карлсон, который наверное живёт на крыше." останется лишь "Карлсон наверное крыше.", а это абсурд, поскольку вдруг кто-то другой окажется "крыше" Карлсона. :)
С приведённым аргументом не спорю, тем более, мне эта штуковина очень понравилась самому. Считаю её полезной (правда, более для заказчиков) и занимательной (для авторов). Просто, я не могу понять, как можно уменьшить или удалить "(сорняки), как, например, вот, который, наверное и т.д." (цитата), если это предлоги и союзы. Ну иначе, зачем человеку хочется, чтобы их выделяли?
Я после того как у себя стал выделять водность и стопслова, стал автоматом сокращать количество "сорняков" когда пишу более-менее важные письма или тексты... За редкими исключениями в компреде фраза "Предлагаем услуги по хххх" или даже "предлагаем услуги ххх" будет лучше чем "Мы предлагаем вам самое лучшее качество услуг направленных на выполнение ххх". Человек может и не дочитать до конца :)
Обалдеваю! Стоп- слово "и", грамматическая ошибка в слове "чат" и "жлобство". Можно, конечно , вместо "еще" написать "истчо", но как еще можно написать слово "чат"?? Воды в тексте, написанном практически ни о чем,(писала как-то зарисовочку для дамского форума) 24%, хотя, как на мой взгляд, там вообще 80% воды. Нет там информации,это был комплимент форуму. про тошноту - молчу, ее там 2% .Только что это? там 2700 знаов, следовательно 2% - 54 знака, примерно 7 слов. От каких эту хрень тошнит? Ну,"жлобство", я понимаю, а остальные 4 тошнотворных слова? с Плагиатусом еще смешнее. Никогда не пользовалась. Стало любопытно. Сунула туда давно ОПУБЛИКОВАННЫЙ текст. 69% уникальности. Сейчас еще один эксперимент сделаю. Проверю рерайт сказки про репку. что еще умного системка скажет??
Слова "чат" нет в словарях системы, поэтому и неправильно считает :) Для проверки текстов это неважно, ибо оно лишь обращает наше внимание на то или иное слово, а вот при приеме текстов как заказчик.... напрягает когда 80% нормальных работ автомат забраковывает как тексты с ошибками которых нет... ну да об этом я писал администрации... :) Если считаете "жлобство" с "чатом" правильными словами - проверьте их в ворде....
Что же касается уникальности, то думаю проблема в том, что яндекс некоторые запросы игнорирует... типа статья находится в яше по другим запросам, а вот по некоторым присутствующим в тексте запросам не находит... бывает еще, что статья опубликована но не в индексе... ну и по моему опыту 80% статей дешевых котроые писались на заказ для сателитов и были в индексе спустя год уже не находятся... так что если опубликовано не на вашем сайте, то всякое может быть... :)
хоть кто-то объяснил нормально) Мне, по большому счету, все равно. у меня один раз была проблема с уникальностью, да и то, три разных программы исполнили каждая свою песнь. с грамматическими ошибками я борюсь путем вычитывания текста не сразу, а после того,как он хотя бы полчаса "отлежится", то же касается и стилистики. Слова "чат" и "жлобство" из песни, увы! не выкинешь, так как язык их уже воспринял, так что мое мнение ничего уже не изменит. в тот момент,когда я стану доверять "ворду" проверку правописания,а тем более считать его истиной в последней инстанции, я повешусь на мышьем шнуре. Но Ваши объяснения,конечно, очень полезны, я,кстати выясняла,что такое пресловутая "тошнота" на Вашем сайте))
Ну ВОРД не истина в последней инстанции, а лишь метод обратить внимание :) Что касается тошноты, то вы более любознательны чем я.... я все никак не заставлю себя прочитать что такое "академическая" тошонта... ну и перенять у Адвего ее себе :) а то вроде как на первый взгляд она более симпотична :)
Ну просто смотрим, что в документе слишком много различных повторяющихся (тошнотных) фраз (ну, к примеру, если 2 раза появилась фраза, то уже тошнит от нее). Вот и тошнит от всего этого дела :) Ну а там как угодно можно считать. Можно по экспоненте - чем больше фраз, тем сильнее тошнит по экспоненте, можно линейно, можно так, можно сяк... Тут простора много.
одни нестарые, но интересные времена, в одной затерянной вологодской деревеньке, в избушке-развалюшке жил-был дедко.Да не один, а с бабкой, Дашуткой-внучкой, собачкой Жучкой, кошкой Муськой и целой оравой мышей в подполье. Жили они дружно, но голодно. У мышей в подполе в животах марш играл, Муська на них, костлявых давно лапой махнула, Жучка пропитывалась, чем придется, да и внучка с бабкой и дедком на голодном пайке сидели. Дедко, конечно, в собес ходил, насчет прибавки к пенсии хлопотал, но там ему про какой-то страшный "крызис" разъобъяснили. Вот с тем он, несолоно хлебавши, и вернулся. А тут еще знахарка из соседней деревни масла-то в огонь подлила. - Тут, говорит,- такая диспозиция: аль опять супостат на нас войной пойдет, аль снова все смирно, как при батюшке Царе Горохе, будет. В общем, надвое сказала. Призадумался дедко. Но, однако, надумал. Вскопал он грядку, да посадил репу, а бабку с внучкой припахал полоть-поливать. Скоро сказка сказывается, а репа еще спорее растет. Вот и выросла она большая-пребольшая. Надо урожай собирать. Пошел дедко на грядку, ухватил репку. Тянет-потянет, а вытянуть не может. Ну, тащил он эту репку, тащил, гряду истоптал, полпачки "Примы" искурил, а толку - ноль. Бабка-то сначала советы полезные давала, потом кругами запохаживала, да тоже взялась вместе с дедкой за эту репку. Тянут-потянут, ан нет, фиг вам, а не корнеплод! Стали они внучку Дашутку звать на помощь. Теперь уж втроем тянут репку. Результат тот же: око видит, а зуб неймет. Дедко матерится, бабка блажит, внучка визжит - ну, прям, кошмар и истинное светопреставление. Жучке это дело сразу понравилось, отродясь в такие веселые игры никто не играл. Ну и решила поучаствовать. Ухватила Дашутку-внучку за подол давай тянуть. Тянут-потянут... (смотри выше) Тут и Муська, что на солнышке грелась, решила присоединиться, тем более что у главной ее врагини зубы-то заняты. Да и под такое благое дело можно будет хоть в хвост Жучкин побольнее вцепиться. Вот они всем коллективом и тянут репку. А репке хоть бы хны, как сидела в гряде, так и сидит сиднем. А тут мышь брела по своим мышачим делам. Как увидела эту катавасию, чуть со смеху животики не надорвала, ладно, бдительность не потеряла. Как увидела Муська мышку, так в ней тигр голодный и проснулся. Изо всех своих сил рванулась она к добыче. А в зубах- то Жучкин хвост! Дернулась отчаянно Жучка, оступилась и шлепнулась на нее внучка и потащила за собой бабку. В общем: внучка - на Жучку, бабка - на внучку, дедко на бабку, а репка - на дедку. И репка-то и впрямь большая-пребольшая.
оличество стоп-слов 156 Вода 39.5 % Количество грамматических ошибок 17 Классическая тошнота документа 2.65 Академическая тошнота документа 7.1 %
озможно, ошибки в словах: Дедко, Жучкин, Жучкой, Муська, Муськой, блажит, дедко, дедкой, дедком, дедку, крызис, мышачим, полпачки, припахал, разъобъяснили, спорее, хлебавши У меня началась классическая тошнота. для чего сесь сыр-бор? И как, простите, писать слова,которорые имеются в словаре Даля "блажит", "споро", "хлебать"? Почему в этой бессмыслице всего 40% воды? чем не угодили "Муська" с "Жучкой"? как обойтись без служебных слов? Так что - не жили хорошо,неча и начинать. И пусть семантический анализ меня поправит)
И я там был, самогонку пил и пареной репой закусывал.
Это не литературные изыски, это просто не нужные мне работы. Вообще-то мои работы оценивает заказчик, а не программа. Я не вижу смысла в этой программе. Мало проблем с русским языком и пресловутой уникальностью, так теперь еще и новая фишка - количество воды, служебные слова и тошнотворность текста. Сео-копирайтинг и так является издевательством, как над языком, так и над райтерами, вынужденными выполнять акробатически трюки, и балансировать между требованями заказчика и требованиями как русского многострадального, так и здравого смысла. Я не претендую на правоту и ни в коем случае не желаю кого-нибудь обидеть, но мне, зачастую, все это представляется игрой взрослых людей в детские игры, но на взрослый лад.
т.е. проще говоря, SEO- оптимизм ( :) ) вкупе с семантическим анализом не нужен никому, кроме самих оптимизаторов? И к русскому языку данный анализ имеет такое же отношение, как черный ящик самолета к безопасности полетов. Короче, сам по себе русский язык тут ни причем, важно лишь составить ПРАВИЛЬНЫЙ набор слов, который позволит неким компьютерным программам (поисковым системам) некие ресурсы поместить в список на первое место, а другие-на последнее.... в интересах бизнеса, естественно, т.е. грубо говоря, переставить слова, чтоб они приносили БОЛЬШЕ бабок.
Сергей, а где тут семантика? без ехидства спрашиваю. Ведь вы же под этим что-то подразумевали когда писали... я вот в упор не вижу семантики в Вашем анализаторе. Может конечно это от того, что я знаком немного с семантическим анализом текстов, и вижу разницу между морфологией синтаксисом и семантикой, но Вы то ведь тоже не хуже меня разбираетесь в терминологии.... Хотя к слову сказать мой юрист на подобный мой вопрос сказал, что "Семантический анализ" определение понятное для него как для гуманитария... так что может Вы и правы... в общем раз уж подвернулся повод спросить, то спрашиваю :)
Я, кстати, не особо силен в терминах и не особо силен в программировании (хотя специальность моя - разработка асу и по) и уж тем более не особо силен в семантике. А вот порассуждать и поумничать - в этом я силен )
И всё же, пожалуйста, дайте по каждому пункту, где указаны проценты, какая должна быть общепринятая норма. Мне надо знать к каким показателям стремиться. Заранее благодарю за ответ.
Возьмите запрос "пластиковые окна", введите его в яндексе, откройте сайт из топ-10, возьмите текст с сайта и сделайте анализ этого текста. Вы получите "общепринятую норму" по запросу "пластиковые окна". Для яндекса. Для вашего региона.
Не находите, что это симптоматично? Может, Вам и "семантика языка интересна сама по себе", но всякорайтерам, как видите, после проги, выдающей некие параметры текста, сразу нужно и точные значения этих параметров - стремиться к "совершенству"! Проще это, чем прочитать томик Пушкина и Унитазова Сортир-Сортирыча. И сравнить. И поразмыслить... К чему такие напряги? Ведь чукча - не читатель, чукча - писатель...
да нет идеала, ну почему вы спорите? :) идеал меняется в зависимости от задачи. Как заказчик скажет, мол ему надо тошноту в пределах 5-7, так вы и считайте его идеалом :) НЧ, ВЧ, СЧ, статья под ссылки, под траф... размер "облака" кеев, колво "облак" в статье... да мало ли еще каких критериев может быть которые влияют на "идеал" :)
Что понимается под "значимыми", и под "незначимыми" словами? Для меня незначимые - это предлоги, междометия и пр., которые семантическим анализом относятся к "стоп-словам". А я-то думал, что стоп-слова - это те, на которых надо остановить свое внимание...
Боже, чушь какая! Они потому и часто употребляемые, что самые важные! Это все равно, что в английском неправильные глаголы считать незначимыми. Они же - основные. Это все прочие можно откинуть и прекрасно общаться!
Стоп-слова не только самые частые, они еще и в основной своей массе служебные. Союзы отражают СТРУКТУРУ предложения, но никак не смысл. Поясню на примере: "Самый лучший сайт для копирайтеров и рерайтеров" Мысленно распределите процент важности слов для понимания сути... в каких словах больше сути? На самом деле слова не разделяются на значимые и незначимые, граница условна, и зависит от контекста, плюс она не бинарна, т.е. можно значимость отразить неким числом, а не да/нет... Но очевидно, что "самый" "лучший" "для" "и" несут минимум информации, в сравнении с "копирайтеров, рерайтеров" и даже с "сайт"... оставив только "сайт копирайтеров рерайтеров" мы хоть и получим несколько корявую фразу, но читаемую. А вот "Самый лучший для и" - вообще бесполезно..... еще один пример - если забить эту фразу в поисковик, то очевидно, что важность наличия тех или иных искомых слов на находимых сайтах различна. Если в найденной странице не будет слова "и", то пользователь это простит поисковику... а вот если не будет "копирайтеров", то скорее всего оно не будет соответствовать ожиданиям пользователя. В общем так, на пальцах.... Надеюсь понятно объяснил :)
Короче, кто писать умеет (не ухмыляйтесь такой скромности, я же не обязательно про себя), тому эти костыли не нужны. Одно пугает. Ведь уже сейчас нередки споры между автором и ВМ об уникальности. НОРМАЛЬНЫЙ ВМ потом извиняется: "Глюк. Перепроверил вручную. Все нормально." А если будет ПО, оценивающее тексты ПОЛНОСТЬЮ - и удобочитаемость, и понятность для определенной аудитории, и остроумие, и тошноту и т.д., и т.п., заказчик (хотя бы из экономии времени) при проверке их вообще читать перестанет! Вот тогда на коне как раз окажутся всякорайтеры, пишущие с помощью программ, специально подогнанных под программы проверяющие... Это уже не то что НЕ ЛИТЕРАТУРА будет, но даже и не копирайт... Вообще названия пока нет. Была раньше шутка, что если 1000 мартышек усадитиь за печатные машинки на 1000 лет, они напишут "Войну и мир". А поскольку ПК уже способен ту же работу выполнить за секунды, мы явно движемся к этой светлой цели... Только не хотелось бы, чтоб внуки вынуждены были ТАКУЮ "Войну и мир" читать...
А что - не помню уже, в каком фантастическом рассказе читала: засыпал,что под руку попало, потряс - получи, фашист, гранату! насыпал ключевиков, протряс в программе - воду выжал, стоп-слова сократил, и - пошла читать губерния! а потом жалобы на мастеров идут, написанные на таком "грамотном" русском, что удивительно, как монитор не краснеет. Лучше курсы русского языка открыли бы, может и программы не были бы так востребованы. А всякорайтеры и так уже на коне. Иногда заказчики просят рерайтить такое,что сами не понимают смысла самими же заказанного когда-то и оплаченного текста. И не надо мне про поисковик,что ему, мол, все равно. Было бы все равно - не просили бы мастера читабельности. А ведь эти исходники - после вашего же плагиатуса и проверочных программ. Лучше бы на наличие смысла проверяли . И мастера бы довольны были, и всякорайтерам бы пришлось или учиться и качественно работать,или уходить и дать спокойно работать другим. Ешкин кот, вчера целый час вдвоем пытались понять, что именно написано в тексте. Конечно, уникальность будет! Китайский текст - русскими буквами и только иногда знакомое, до счастья, слово Nokia.
:) Nokia - смешно:) Но вмешалась не поэтому только. О литературных талантах наслышана, отношусь с почтением. Наш рерайт отношения к литературе художественной не имеет вообще. И, наверное, не должен. Адвего не ставил цель развития русского языка или классической русской речи.Совсем другие цели и у ВМ. Мы пишем с ключевиками некоторым образом "зомбирующие" тексты,а это совсем другая наука. И все эти анализаторы не для того, чтобы нас научить говорить или писать правильно, а чтобы показать, что нужно заказчикам, которые платят. Если развивать и совершенствовать великий и могучий - это в другой очереди. Здесь другие задачи. Не знаю, насколько внятно мне удалось передать свою мысль, но я в последнее время замечаю всё возрастающую агрессию авторов по отношению к ВМ и админам сайта. ВМы, с которыми работаю, мне нравятся.(было два неприятных - из бс ушла сама).Администрация сайта, насколько это видно, всячески пытается нам жизнь упростить. Скажу честно - пока вчера три существительных без изменений в И.п. в текст вложила,думала поседею,но...Если хочется языка и литературы, беру томик Пастернака или Бунина.
Согласна и несогласна с Вами. Конечно, и рерайт и копирайт имеют к литературе весьма и весьма далекое отношение. Не первый раз упоминаю про акробатические этюды, выделываемые райтерами на "сео"-проволоке. Развивать язык - дело вообще невыполнимое, ибо он развивается, не обращая внимание на экспансию жаргона или англицизмов. Он все переживет, подомнет,переделает по-своему. так что всякорайтеры ему не страшны). Но тем не менее, даже самый глупый текст должен быть написан грамотно,хотя бы из уважения к самому себе. Я,как и Вы,терпеть ненавижу писать статьи с ключами, но мне легче,так как я - "вольный стрелок", пишу под заказ и могу отказаться от тех работ,которые мне не нравятся. Я поддерживаю Вас в том, что агрессия к мастерам и админам во многом необоснована, но пенять на зеркало ведь гораздо легче). Приятно встретить поклонника Бунина. Я очень люблю Лескова и,как и Вы, с удовольствием отдыхаю за чтением хорошей литературы. Жаль,только что времени на это мало)
Проверка на наличие смысла? :) Возможно, но ресурсоемко... если не ошибаюсь полноценный семантический анализ текста требует примерно в 1000 раз больше ресурсов чем статистический. Хотя это смертельно в масштабах Яндекса, но не так смертельно в масштабах того же адвего...
Уважаемые Мастера! Не надо проверять остроумие,хотя,конечно, можно развить эту тему до абсурда и представить,как отклоняют текст по бетону,за то,что в нем мал процент остроумия.) Но на наличие смысла проверить - при мысли о таких возможностях, душа начинает петь колоратурным сопраном)). вчера расшифровывала исходник до поного обалдения,в результате ничего не поняла и написала отсебятину. А может в этой невнятице что-то умное было зашифровано, и Сеть потеряла возможность причаститься к гениальным мыслям бедного перерерайченого мною автора? А так бы его еще в исходнике придушили. И мне хорошо - и он бы не мучился)
теоретически можно.... :) строим семантическое дерево... смотрим насколько нам удалось его собрать единым, без отдельных кустов.. раздаем веса узлам графа, исходя из частотности слова/словосочетания.... делаем из графа синтез... хоть какой синтез, пусть и слабочитаемый... синтезированное резюме и его размер дают нам более объективный критерий "воды". Смотрим длину путей между самыми весомыми узлами. Чем они короче, тем текст "связнее". Смотрим насколько веса узлов соизмеримы с законом Зипфа... Слишком "связный" текст спамовит и тавтологичен...слишком несвязный, бессмысленный. Дорвейный текст как правило представляет из себя набор вырванных из контекста слов и фраз, связанных по разумным правилам. Значит будем иметь слишком много "ключевых узлов", вокруг которых будут висеть много узлов "второго уровня" которые очень слабо связанны между собою... Может еще какие эвристики можно придумать... Да только долго это все писать... нужна команда из кодеров. Так что вряд ли это будет реализовано в ближайшее время. По крайней мере я не стану финансировать такую разработку до конца кризиса :)
Ну вот, как всегда - на самом интересном месте.. я теперь умру от любопытства. Поэтому, если можно (мне и так неудобно отнимать у Вас время), что такое закон Зипфа? Остальное я худо-бедно но поняла. Вы доходчиво объясняете).
Небольшое статистическое наблюдение, из которого было сделано множество интересных методик... кратко, но доходчиво об этом можно почитать здесь: [ссылки видны только авторизованным пользователям] Статья не совсем об этом, но во многом про Зипфа... сразу так сказать и теория и практика.
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186